Descripción de la base de datos ENPOL 2021

Para este proyecto utilizo la Encuesta Nacional de la Población Privada de la Libertad (ENPOL) correspondiente al año 2021, la cual es una operación estadística desarrollada por el Instituto Nacional de Estadística y Geografía (INEGI) de México. Esta encuesta constituye una de las fuentes más completas y actualizadas sobre las condiciones de vida, características sociodemográficas y situación jurídica de las personas privadas de la libertad en el país.

La ENPOL tiene como objetivo generar información confiable sobre diferentes aspectos del internamiento, tales como el acceso a servicios básicos, el nivel de hacinamiento, los antecedentes familiares y laborales de la población reclusa, y la experiencia que las personas han tenido dentro del sistema penitenciario. Esta encuesta se ha aplicado en dos ocasiones, en 2016 y 2021; para este trabajo utilizo los datos más recientes.

En general, la ENPOL incluye una amplia variedad de temas: desde variables sociodemográficas hasta condiciones específicas del internamiento, percepciones de seguridad, reincidencia, vínculos familiares y características del centro penitenciario. En este proyecto se trabajó con un subconjunto de estas variables, las cuales fueron:

Diccionario de Variables del Estudio
variable definicion tipo
id_persona Identificador único del participante Categórica (ID)
edad Años cumplidos al momento de la encuesta Cuantitativa
estado_civil Estado civil recodificado en 4 categorías Categórica
escolaridad Nivel educativo agrupado en 4 niveles Categórica ordinal
tiene_hijos Indica si el participante tiene hijos Categórica dicotómica
numero_hijos Número total de hijos Cuantitativa
mantiene_alguien Mantenía económicamente a alguien antes de la detención Categórica dicotómica
personas_celda Número de personas con quienes comparte celda Cuantitativa
comida_dia Número de comidas proporcionadas al día Cuantitativa
horas_celda Horas que pasa en la celda durante un día Cuantitativa
seguridad_celda Percepción de seguridad en la celda Categórica dicotómica
antes_recluido Ha sido recluido previamente Categórica dicotómica
veces_recluido Número total de reclusiones previas Cuantitativa
vivio_con_madr Vivió con su madre antes de los 15 años Categórica dicotómica
vivio_con_padr Vivió con su padre antes de los 15 años Categórica dicotómica
mujer Dummy: 1 si es mujer Categórica dicotómica
detencion_varo Dummy: 1 si el centro es varonil Categórica dicotómica
detencion_fem Dummy: 1 si el centro es femenil Categórica dicotómica

res.pca<-FactoMineR:: PCA(vars_cont, scale.unit = TRUE, ncp = 20, graph = FALSE)
acp <- dudi.pca(vars_cont, scannf = FALSE, nf = 15) 

# El parámetro nf indica cuantos ejes voy a conservar
valp <- t(inertia(acp)$tot.inertia) # valores propios
kable(valp, digits = 3)
Ax1 Ax2 Ax3 Ax4 Ax5 Ax6 Ax7 Ax8 Ax9 Ax10 Ax11 Ax12 Ax13 Ax14 Ax15
inertia 2.197 1.973 1.666 1.391 1.174 1.112 1.017 0.980 0.917 0.644 0.564 0.531 0.330 0.277 0.226
cum 2.197 4.170 5.837 7.228 8.402 9.514 10.531 11.511 12.428 13.072 13.636 14.168 14.498 14.774 15.000
cum(%) 14.648 27.802 38.912 48.187 56.015 63.430 70.208 76.741 82.855 87.148 90.909 94.451 96.651 98.495 100.000

Varianza Explicada por las Componentes

  • Varianza de la componente \(\alpha\):
    \[ \text{var}(z_\alpha) = \lambda_\alpha \]
  • Porcentaje de varianza explicada por la componente \(\alpha\):
    \[ \tau_\alpha = \frac{\lambda_\alpha}{\sum_{\alpha=1}^p \lambda_\alpha} \]
  • Porcentaje acumulado de varianza explicada por las primeras \(q\)componentes:
    \[ \tau_q = \frac{\sum_{\alpha=1}^q \lambda_\alpha}{\sum_{\alpha=1}^p \lambda_\alpha} \]

Interpretación: - \(\lambda_\alpha\): Representa la cantidad de varianza total que captura la componente \(\alpha\). - \(\tau_\alpha\): Indica la proporción de la varianza total explicada por esa componente. - \(\tau_q\): Muestra cuánta varianza total se conserva al usar solo las primeras \(q\)componentes.


Correlaciones Variable-Factor

\[ \text{Correlación}(Y_j, z_\alpha) = \sqrt{\lambda_\alpha} \cdot u_{j\alpha} \]

Interpretación: - Mide qué tan bien una variable \(Y_j\)está representada en la componente \(z_\alpha\). - Valores cercanos a ±1: La variable está bien representada en esa componente. - Valores cercanos a 0: La variable no está relacionada con esa componente.


Coordenadas de las Variables (Scores)

\[ w_{j\alpha} = \sqrt{\lambda_\alpha} \cdot u_{j\alpha} \]

Interpretación: - Representa la posición de la variable \(j\)en el eje \(\alpha\). - Se utilizan para graficar las variables en los planos factoriales.


Contribuciones de las Variables a la Varianza del Factor

\[ \text{Contribución}(Y_j, z_\alpha) = \frac{u_{j\alpha}^2 \cdot \lambda_\alpha}{\lambda_\alpha} = u_{j\alpha}^2 \] O, en forma de porcentaje: \[ \text{Contribución}(\%) = \frac{u_{j\alpha}^2}{\sum_{j=1}^p u_{j\alpha}^2} \times 100 \]

Interpretación: - Indica cuánto contribuye la variable \(Y_j\)a la formación de la componente \(z_\alpha\). - Valores altos: La variable es importante para definir esa componente.


Cosenos Cuadrados ($^2 $)

\[ \cos^2(\theta_{j,\alpha}) = \lambda_\alpha \cdot u_{j\alpha}^2 \]

Interpretación: - Representa la proporción de la varianza de la variable \(Y_j\)que es explicada por la componente \(z_\alpha\). - Valores altos: La variable está bien representada en esa componente.


Coordenadas de los Objetos (Individuos)

\[ z_{i\alpha} = \sum_{j=1}^p u_{j\alpha} \cdot y_{ij} \] o, en notación matricial: \[ z_\alpha = Y \cdot u_\alpha \]

Interpretación: - Representa la posición del objeto \(i\)en la componente \(\alpha\). - Se usan para graficar los objetos en los planos factoriales.


Contribuciones de los Objetos a la Varianza del Factor

\[ \text{Contribución}(i, z_\alpha) = \frac{z_{i\alpha}^2}{\lambda_\alpha} \]

Interpretación: - Indica cuánto contribuye el objeto $i $a la varianza de la componente $z_$. - Valores altos: El objeto es importante para definir esa componente.


Cosenos Cuadrados para Objetos

\[ \cos^2(\theta_{i,\alpha}) = \frac{z_{i\alpha}^2}{\sum_{\alpha=1}^p z_{i\alpha}^2} \]

Interpretación: - Mide qué tan bien está representado el objeto $i $en la componente $$. - Valores altos: El objeto está bien representado en esa componente.


Distancias entre Variables

matriz de correlación \[ d^2(Y_j, Y_{j'}) = 2 \left(1 - \cos(\theta_{jj'})\right) \] donde $() $es la correlación entre $Y_j $e $Y*{j’} $.

Interpretación: - $d $: Variables muy correlacionadas. - $d $: Variables no correlacionadas. - $d $: Variables inversamente correlacionadas.


Distancias entre Objetos

\[ d^2(i, i') = \sum_{j=1}^p (y_{ij} - y_{i'j})^2 \]

Interpretación: - Objetos cercanos: Tienen perfiles similares. - Objetos lejanos: Tienen perfiles diferentes. - Objetos en cuadrantes opuestos: Tienen perfiles opuestos.


Variables y Objetos Suplementarios

  • Proyección de variable suplementaria: \[ Y^+ \cdot u_\alpha \]
  • Proyección de objeto suplementario: \[ Y_+ \cdot v_\alpha \]

Interpretación: - Permiten incluir información adicional sin afectar el cálculo de las componentes. - Cercanía a variables/objetos activos: Indica similitud o asociación.

# Crear muestra del 10% 
muestra_10pct <- datos_con_dummies %>% 
  sample_frac(0.10)
nrow(muestra_10pct) # 3 154
# 1. ACP estándar
result <- PCAshiny(muestra_10pct %>% select(-id_persona))